在本文中,我们提出了一种剪辑 - 拆卸,这是一种新技术,可以自动描述视觉网络中单个隐藏神经元的功能。剪辑 - 拆线器利用多模式视觉/语言模型的最新进展将内部神经元标记具有开放式概念的内部神经元,而无需任何标记的数据或人类示例,这是现有工具成功所必需的。我们表明,剪贴板与现有的神经元的现有方法提供了更准确的描述,这些神经元可用,以及对隐藏层神经元的定性描述。此外,我们的方法非常灵活:它是模型的不可知论,可以轻松处理新概念,并且可以扩展以利用将来更好的多模型模型。最终,剪辑截止值是计算上的高效,并在数十分钟内将层的所有神经元标记为层的所有神经元。在本文中,我们提出了一种剪辑 - 拆卸,这是一种新技术,可以自动描述视觉网络中单个隐藏神经元的功能。剪辑 - 拆线器利用多模式视觉/语言模型的最新进展将内部神经元标记具有开放式概念的内部神经元,而无需任何标记的数据或人类示例,这是现有工具成功所必需的。我们表明,剪贴板与现有的方法相比,对于最后一层神经元的现有方法提供了更准确的描述,这些方法可用于地面真相以及隐藏层神经元的定性描述。此外,我们的方法非常灵活:它是模型的不可知论,可以轻松处理新概念,并且可以扩展以利用将来更好的多模型模型。最终,剪辑截止值在计算上是有效的,可以在短短四分钟内将所有神经元标记为所有神经元。
translated by 谷歌翻译
最近的研究表明,深层增强学习剂容易受到代理投入的小对抗扰动,这提出了对在现实世界中部署这些药剂的担忧。为了解决这个问题,我们提出了一个主要的框架,是培训加强学习代理的主要框架,以改善鲁棒性,以防止$ L_P $ -NORM偏见的对抗性攻击。我们的框架与流行的深度加强学习算法兼容,我们用深Q学习,A3C和PPO展示了其性能。我们在三个深度RL基准(Atari,Mujoco和Procgen)上进行实验,以展示我们稳健的培训算法的有效性。我们的径向-RL代理始终如一地占据了不同强度的攻击时的现有方法,并且培训更加计算效率。此外,我们提出了一种新的评估方法,称为贪婪最坏情况奖励(GWC)来衡量深度RL代理商的攻击不良鲁棒性。我们表明GWC可以有效地评估,并且对最糟糕的对抗攻击序列是对奖励的良好估计。用于我们实验的所有代码可在https://github.com/tuomaso/radial_rl_v2上获得。
translated by 谷歌翻译
We study the problem of computing an approximate Nash equilibrium of continuous-action game without access to gradients. Such game access is common in reinforcement learning settings, where the environment is typically treated as a black box. To tackle this problem, we apply zeroth-order optimization techniques that combine smoothed gradient estimators with equilibrium-finding dynamics. We model players' strategies using artificial neural networks. In particular, we use randomized policy networks to model mixed strategies. These take noise in addition to an observation as input and can flexibly represent arbitrary observation-dependent, continuous-action distributions. Being able to model such mixed strategies is crucial for tackling continuous-action games that lack pure-strategy equilibria. We evaluate the performance of our method using an approximation of the Nash convergence metric from game theory, which measures how much players can benefit from unilaterally changing their strategy. We apply our method to continuous Colonel Blotto games, single-item and multi-item auctions, and a visibility game. The experiments show that our method can quickly find high-quality approximate equilibria. Furthermore, they show that the dimensionality of the input noise is crucial for performance. To our knowledge, this paper is the first to solve general continuous-action games with unrestricted mixed strategies and without any gradient information.
translated by 谷歌翻译
The ability to effectively reuse prior knowledge is a key requirement when building general and flexible Reinforcement Learning (RL) agents. Skill reuse is one of the most common approaches, but current methods have considerable limitations.For example, fine-tuning an existing policy frequently fails, as the policy can degrade rapidly early in training. In a similar vein, distillation of expert behavior can lead to poor results when given sub-optimal experts. We compare several common approaches for skill transfer on multiple domains including changes in task and system dynamics. We identify how existing methods can fail and introduce an alternative approach to mitigate these problems. Our approach learns to sequence existing temporally-extended skills for exploration but learns the final policy directly from the raw experience. This conceptual split enables rapid adaptation and thus efficient data collection but without constraining the final solution.It significantly outperforms many classical methods across a suite of evaluation tasks and we use a broad set of ablations to highlight the importance of differentc omponents of our method.
translated by 谷歌翻译
连续的软件工程在许多领域已变得司空见惯。但是,在调节需要考虑其他问题的密集部门时,通常认为很难采用连续的开发方法,例如DevOps。在本文中,我们提出了一种将拉力请求用作设计控件的方法,并将这种方法应用于认证的医疗系统中的机器学习,这是一种新颖的技术,这是一种新颖的技术,旨在为机器学习系统增加解释性,作为监管审核跟踪。我们以前曾使用过一种工业系统来证明这种方法,以证明如何以连续的方式开发医疗系统。
translated by 谷歌翻译
在本文中,我们建立了高效且取消耦合的学习动力学,因此,当由所有玩家在多人游戏中使用Perfect-Recall Inderfect Interfect Inderfection Formfortation Gartensive Games时,每个玩家的\ emph {触发后悔}会成长为$ o(\ log t t t t t t )$ $ t $重复播放。这比$ o(t^{1/4})$的先前最著名的触发regret键呈指数改进,并解决了Bai等人最近的一个开放问题。 (2022)。作为直接的结果,我们保证以$ \ frac {\ log log t} {t} $的接近速率以接近{粗相关的平衡}融合。基于先前的工作,我们的构造核心是关于从\ emph {polyenmial genter}衍生的固定点的更一般的结果,这是我们为\ emph {(粗)触发偏差函数建立的属性}。此外,我们的构造利用了凸壳的精制\ textit {遗憾电路},与先验保证不同 - 保留了Syrgkanis等人引入的\ emph {rvu属性}。 (NIPS,2015年);这种观察对基于CFR型遗憾的分解,在学习动态下建立近乎最佳的遗憾具有独立的兴趣。
translated by 谷歌翻译
在竞争激烈的两种环境中,基于\ emph {double oracle(do)}算法的深度强化学习(RL)方法,例如\ emph {policy space响应oracles(psro)}和\ emph {任何时间psro(apsro)},迭代地将RL最佳响应策略添加到人群中。最终,这些人口策略的最佳混合物将近似于NASH平衡。但是,这些方法可能需要在收敛之前添加所有确定性策略。在这项工作中,我们介绍了\ emph {selfplay psro(sp-psro)},这种方法可在每次迭代中的种群中添加大致最佳的随机策略。SP-PSRO并不仅对对手的最少可剥削人口混合物添加确定性的最佳反应,而是学习了大致最佳的随机政策,并将其添加到人群中。结果,SPSRO从经验上倾向于比APSRO快得多,而且在许多游戏中,仅在几次迭代中收敛。
translated by 谷歌翻译
延时图像序列提供了对动态过程的视觉吸引人的见解,这些过程太慢,无法实时观察。但是,由于天气(例如天气)以及循环效应(例如昼夜周期),播放长时间的序列通常会导致分散注意力的闪烁。我们以一种允许单独的,事后控制整体趋势,环状效应和图像中随机效应的方式介绍了解散延时序列的问题,并描述了基于数据驱动的生成模型的技术这个目标。这使我们能够以仅输入图像不可能的方式“重新渲染”序列。例如,在可选的,一致的天气下,我们可以稳定长序列,以重点关注植物的生长。我们的方法基于生成对抗网络(GAN),这些网络(GAN)以延时序列的时间坐标为条件。我们设计了我们的体系结构和培训程序,以便网络学会为随机变化(例如天气,使用GAN的潜在空间)建模,并通过使用特定频率的傅立叶功能将调理时间标签馈送到模型中,从而消除整体趋势和周期性变化。 。我们表明,我们的模型对于训练数据中的缺陷是可靠的,使我们能够修改捕获长时间序列的一些实际困难,例如临时遮挡,不均匀的框架间距和缺失框架。
translated by 谷歌翻译
神经网络在许多医学成像任务中都取得了令人印象深刻的结果,但在源自不同医疗中心或患者同类的分布数据集中通常会表现出色。评估这种缺乏概括和解决潜在问题的能力是开发旨在临床实践的神经网络的两个主要挑战。在这项研究中,我们开发了一种新方法,用于评估神经网络模型通过生成大量分配移位数据集的概括能力,可用于彻底研究其对临床实践中遇到的可变性的鲁棒性。与外部验证相比,\ textit {移位评估}可以提供有关为什么在给定数据集上神经网络失败的解释,从而为如何改善模型鲁棒性提供指导。随着评估的转变,我们证明了接受最先进方法训练的神经网络对于甚至从训练数据中的分配很小的转移而高度脆弱,并且在某些情况下会失去所有歧视能力。为了解决这一脆弱性,我们制定了一种增强策略,该策略明确旨在提高神经网络对分配转移的稳健性。 \ texttt {strongaugment}通过大规模的,异构的组织病理学数据进行评估,其中包括来自两种组织类型的五个培训数据集,274个分配切换的数据集和来自四个国家 /地区的20个外部数据集。接受\ texttt {strongaugment}培训的神经网络在所有数据集上都保持相似的性能,即使通过分配变化,使用当前最新方法训练的网络将失去所有歧视能力。我们建议使用强大的增强和转移评估来训练和评估所有用于临床实践的神经网络。
translated by 谷歌翻译
最近的一项工作已经建立了未耦合的学习动力学,以至于当所有玩家在游戏中使用所有玩家时,每个玩家的\ emph {sorex} $ t $ recretitions在$ t $中增长了polygarithmarithm,这是$ t $的指数改进,比指数级的改进,比传统的保证在无缩写框架。但是,到目前为止,这些结果仅限于具有结构化策略空间的某些类别的游戏,例如正常形式和广泛形式的游戏。关于$ o(\ text {polylog} t)$遗憾界限是否可以为一般凸和紧凑型策略集获得的问题 - 这在经济学和多种系统中的许多基本模型中都发生 - 同时保留有效的策略更新是一种重要的问题。在本文中,我们通过建立$ o(\ log t)$ player后悔的第一个未耦合学习算法来回答这一点凸和紧凑的策略集。我们的学习动力基于对适当的\ emph {升起}空间的乐观跟随领导者的实例化,使用\ emph {self-condcordant正规器},这是特殊的,这不是可行区域的障碍。此外,我们的学习动力是可以有效地实现的,如果可以访问登录策略的近端甲骨文,从而导致$ o(\ log \ log \ log t)$ ter-ter-ter-tir-tir-tir-tir-tir-tir-tir-tir-tir-tir-tir-tir-tirceptimity;当仅假设仅对\ emph {Linear}优化Oracle访问时,我们还会给出扩展。最后,我们调整动力学以保证对抗性制度中的$ O(\ sqrt {t})$遗憾。即使在适用先前结果的特殊情况下,我们的算法也会改善最先进的遗憾界限,无论是依赖迭代次数还是对策略集的维度的依赖。
translated by 谷歌翻译